В работе исследуется возможность формирования модели голоса заданного диктора на основе записей образцов его голоса с транскрипцией. В работе предлагается практический способ построения голосовой модели и результаты экспериментов ее применения к задаче конверсии голоса. Модель использует искусственную нейронную сеть, устроенную по принципу автоматического кодера, устанавливающую соответствие между пространством речевых параметров и пространством возможных фонетических состояний, унифицированным для произвольного голоса.
В статье представлена схема построения мультиголосового синтезатора речи, основанная на использовании синергетического эффекта от интеграции системы синтеза речи по тексту и конверсии голоса. Такая организация даёт возможность одновременно выполнять действия синтеза и модификации речевого сигнала на основе комплексного подхода, позволяя снизить количество ошибок и артефактов, которые влияют на качество речевого сигнала. Применение данного подхода обеспечивает реализацию функции настройки синтезатора речи на голос целевого диктора без существенных затрат трудоёмкости на обучение речевой базы данных, для добавления новых голосов.
1 - 2 из 2 результатов